Análise Bivariada

Associação entre duas variáveis

Sua opinião sobre o comportamento de uma variável muda na presença de informação de uma segunda variável?

A distribuição conjunta das duas variáveis descreve a associação existente entre elas.

Grau de dependência: como uma variável "explica" ou se "associa" a outra.

Temos três casos:

  • as duas variáveis são quantitativas

  • as duas variáveis são qualitativas

  • uma variável é quantitativa e a outra qualitativa

Associação entre duas variáveis qualitativas

Exemplo

Queremos estudar o comportamento conjunto de duas variáveis: Endometrioma de ovário (\(X\)) e Adenomiose (\(Y\)).

Exemplo

Endometrioma de ovário Adenomiose Focal Adenomiose Difusa Total
Sim 61 473 534
Não 54 122 176
Total 534 176 710
  • 61 pessoas com endometrioma de ovário e adenomiose focal.
  • Na última coluna: frequência de cada nível da variável \(X\).
  • Na última linha: frequência de cada nível da variável \(Y\).
  • Parte interna da tabela: frequências conjuntas entre \(X\) e \(Y\).

Frequências Relativas

Podemos considerar também proporções condicionais (frequências relativas):

  • em relação ao total de elementos;

  • em relação ao total de cada linha;

  • em relação ao total de cada coluna.

A proporção condicional escolhida depende do estudo que pretendemos fazer.

Frequências Relativas

Distribuição das frequências relativas ao total da amostra.

Total da amostra é 710.

Adenomiose Focal Adenomiose Difusa Sum
Endometrioma: Sim 0.086 0.666 0.752
Endometrioma: Não 0.076 0.172 0.248
Sum 0.162 0.838 1.000

8,6% possuem endometrioma de ovário e adenomiose focal.

Frequências relativas ao total das colunas

Distribuição das frequências relativas ao total de cada coluna.

Adenomiose Focal Adenomiose Difusa
Endometrioma: Sim 0.53 0.795
Endometrioma: Não 0.47 0.205
Sum 1.00 1.000

Entre as mulheres com adenomiose focal:

  • \(53\%\) apresentam endomitrioma de ovário.

Entre as mulheres com adenomiose difusa:

  • \(79,5\%\) apresentam endomitrioma de ovário.

Permite comparar a distribuição de endometrioma (\(X\)) conforme o tipo de adenomiose (\(Y\)).

Exemplo

Observando o gráfico e a tabela de proporções parece haver evidências de associação entre a presença de endometrioma e o tipo de adenomiose.

Frequências relativas ao total das linhas

Distribuição das frequências relativas ao total de cada linha.

Adenomiose Focal Adenomiose Difusa Sum
Endometrioma: Sim 0.114 0.886 1
Endometrioma: Não 0.307 0.693 1

Entre as mulheres com endometrioma de ovário:

  • \(88,6\%\) possuem adenomiose difusa

Entre as mulheres sem endometrioma de ovário:

  • \(69,3\%\) possuem adenomiose difusa

Permite comparar a distribuição do tipo de adenomiose (\(Y\)) conforme a presença de endometrioma (\(X\)).

Exemplo

Exemplo: Pesticidas

Uma pesquisa foi feita para investigar a presença de pesticidas em alimentos orgânicos e convencionais.

Pesticida Presente Pesticida Ausente Total
Orgânico 29 98 127
Convencional 19485 7086 26571
Total 19514 7184 26698

Qual a proporção de alimentos com pesticida?

\(19514/26698=0.731\)

Qual a proporção de alimentos com pesticidas dentre os orgânicos?

\(29/127=0.228\)

Qual a proporção de alimentos com pesticidas dentre os convencionais?

\(19485/26571=0.733\)

Proporção Condicional

Proporção condicional: condicionalmente à informação de uma variável, observamos a proporção da outra variável.

  • Qual a proporção de pesticidas entre alimentos orgânicos?
  • Qual a proporção de pesticidas entre alimentos convencionais?
Pesticida Presente Pesticida Ausente Sum
Orgânico 0.23 0.77 1
Convencional 0.73 0.27 1

Presença de pesticida por tipo de alimento

Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre presença de pesticida e tipo de alimento.

Exemplo: Bebidas alcoólicas

A Escola de Saúde Pública da Harvard fez uma pesquisa com 200 cursos de graduação em 2001.

A pesquisa pergunta aos alunos sobre hábitos relacionados à bebida.

  • 4 drinks seguidos, entre mulheres, é classificado como bebida em excesso.
  • 5 drinks seguidos, entre homens, é classificado como bebida em excesso.

Exemplo: Bebidas alcoólicas

Bebida em excesso - Sim Bebida em excesso - Não Total
Masculino 1908 2017 3925
Feminino 2854 4125 6979
Total 4762 6142 10904

Qual o número de alunos:

  • do sexo masculino e que beberam em excesso?

  • do sexo feminino e que beberam em excesso?

Usando diretamente a tabela, podemos responder à pergunta: Há diferença entre homens e mulheres na proporção de ocorrência de bebida em excesso?

Exemplo: Bebidas alcoólicas

Proporções condicionais de ocorrência de bebida em excesso por gênero:

Bebida em excesso - Sim Bebida em excesso - Não Sum
Masculino 0.49 0.51 1
Feminino 0.41 0.59 1

Proporção de ocorrência de bebida em excesso entre homens: \[\frac{1908}{3925}=0.49\]

Proporção de ocorrência de bebida em excesso entre mulheres: \[\frac{2854}{6979}=0.41\]

Ocorrência de bebida em excesso por gênero

Observando o gráfico e a tabela de proporções condicionais parece haver evidências de associação entre gênero e bebida em excesso.

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas

Associação entre duas variáveis qualitativas: comparar proporções condicionais.

Associação entre duas variáveis quantitativas: comparamos como a mudança de uma variável afeta a outra variável.

Diagrama de dispersão

Exemplo: Tempo de serviço e total de clientes

Agente Anos de Serviço (\(X\)) Nº de Clientes (\(Y\))
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
Total 25 300

Exemplo: Tempo de serviço e total de clientes

O gráfico indica uma possível dependência linear positiva entre as variáveis anos de serviço e número de clientes.

Exemplo: Renda e gasto com assistência médica

  • Renda Mensal Bruta (\(X\))

  • \(\%\) da Renda gasta com Assistência Médica (\(Y\))

##    Familia  X   Y
## 1        A 12 7.2
## 2        B 16 7.4
## 3        C 18 7.0
## 4        D 20 6.5
## 5        E 28 6.6
## 6        F 30 6.7
## 7        G 40 6.0
## 8        H 48 5.6
## 9        I 50 6.0
## 10       J 54 5.5

Exemplo: Renda e gasto com assistência médica

Nesse caso, a dependência entre \(X\) e \(Y\) parece ser linear negativa.

Coeficiente de Correlação

  • Objetivo: obter uma medida que permita quantificar a dependência que pode existir entre duas variáveis (positiva, negativa, muita ou pouca).
  • Dado \(n\) pares de observações \((x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\): \[Corr(X,Y)=\frac{1}{n-1}\sum_{i=1}^{n}\left(\frac{x_{i}-\bar{x}}{s_x}\right)\left(\frac{y_{i}-\bar{y}}{s_y}\right)\] onde \(s_x\) é o desvio padrão de \(X\) e \(s_y\) é o desvio padrão de \(Y\).
  • Essa medida leva em consideração todos os desvios \((x_{i}-\bar{x})\) e \((y_{i}-\bar{y})\) padronizados da forma \(z_{x_i}=\frac{x_{i}-\bar{x}}{s_x}\) e \(z_{y_i}=\frac{y_{i}-\bar{y}}{s_y}\).
  • Interpretação: \(z_{x_i}\) indica o número de desvios-padrão que a observação \(x_i\) está afastada da média de X.

Propriedades

  • \(-1 \leq Corr(X, Y) \leq 1\)
  • \(Corr(X, Y)\) próxima de 1: \(X\) e \(Y\) estão positivamente associadas e o tipo de associação entre as variáveis é linear.
  • \(Corr(X, Y)\) próxima de -1: \(X\) e \(Y\) estão negativamente associadas e o tipo de associação entre as variáveis é linear.

Se \(z_{x}\) e \(z_y\) têm o mesmo sinal, estamos somando um termo positivo na expressão da correlação.

Se \(z_{x}\) e \(z_y\) têm sinais opostos, estamos somando um termo negativo na expressão da correlação.

Correlação é a média dos produtos de \(z_x\) e \(z_y\).

Exemplo: Tempo de serviço e total de clientes

Agente Anos de Serviço (\(X\)) Nº de Clientes (\(Y\))
A 2 48
B 4 56
C 5 64
D 6 60
E 8 72
Total 25 300

Anos de Serviço (\(X\)): \(\quad \bar{x}=5 \quad \mbox{e} \quad s_x=2.24\)

Nº de Clientes (\(Y\)): \(\quad \bar{y}=60 \quad \mbox{e} \quad s_y=8.94\)

Exemplo: Tempo de serviço e total de clientes

Agente \(X\) \(Y\) \(z_x=\frac{x_{i}-\bar{x}}{s_x}\) \(z_y=\frac{y_{i}-\bar{y}}{s_y}\) \(z_x\times z_y\)
A 2 48 -1.34 -1.34 1.8
B 4 56 -0.45 -0.45 0.2
C 5 64 0 0.45 0
D 6 60 0.45 0 0
E 8 72 1.34 1.34 1.8

\[Corr(X, Y)=\frac{1}{n-1}\sum_{i=1}^{n}z_{x_i}z_{y_i}=\frac{3.8}{5-1}=0.95\]

Exemplo: Fitbit

Número de passos diários coletados para uma pessoa usando um Fitbit durante 297 dias.

Qual é maior? Média ou mediana?

Média é 9154 e mediana é 8597.

Exemplo: Fitbit

Além do total de passos, Fitbit também registra o tempo gasto em cada tipo de atividade.

Há relação entre o total de passos e o tempo gasto em atividade intensa?

Correlação: 0.76

Exemplo: Fitbit

Há relação entre o total de passos e o tempo (em minutos) de sedentarismo?

Correlação: -0.76

Exemplo: Fitbit

Baseado na altura, peso e gênero, o Fitbit estima o comprimento de cada passo.

Há relação entre o total de passos e distância percorrida?

Correlação: 1

Correlação

Correlação

Cuidado: correlação e outliers

Cuidado: correlação não implica causa!

Consumo de Queijo e Morte com Lençol

Taxa de analfabetismo e mortalidade infantil

Cuidado: Correlação não implica causa!

Associação entre qualitativa e quantitativa

Exemplo: Acidentes de carro em NY

Variável quantitativa: número de acidentes de carro diários

Variável qualitativa: região de NY

Histogramas dos acidentes de carro diários por região de NY

Boxplots dos acidentes de carro diários por região de NY

Leituras

Slides produzidos pelos professores:

  • Samara Kiihl

  • Tatiana Benaglia

  • Benilton Carvalho